论文笔记 - LightRNN - Memory and Computation-Efficient Recurrent Neural Networks

关于如何用 2-Component 共享词向量来优化 RNN。

原文:LightRNN: Memory and Computation-Efficient Recurrent Neural Networks
部分译文: 微软重磅论文提出LightRNN:高效利用内存和计算的循环神经网络



LightRNN 解决的问题是在 perplexity 差不多的情况下 减少模型大小(model size) + 加快训练速度(computational complexity)。论文在多个基准数据集进行语言建模任务来评价 LightRNN,实验表明,在困惑度(perplexity)上面,LightRNN 实现了可与最先进的语言模型媲美或更好的准确度,同时还减少了模型大小高达百倍,加快了训练过程两倍。这带来的意义无疑是深远的,它使得先前昂贵的 RNN 算法变得非常经济且规模化了,RNN 模型运用到 GPU 甚至是移动设备成为了可能,另外,如果训练数据很大,需要分布式平行训练时,聚合本地工作器(worker)的模型所需要的交流成本也会大大降低。


单词表示(Word Representation)

主要思路是使用 二分量(2-Component) 来共享 embeddings。

将词汇表中的每一个词都分配(或者说填入)到一个二维表格中,然后每一行关联一个向量,每一列关联另一个向量。根据一个词在表中的位置,该词可由行向量和列向量两个维度联合表示。表格中每一行的单词共享一个行向量,每一列的单词共享一个列向量,所以我们仅需要 $2 \sqrt |V|$ 个向量来表示带有|V|个词的词汇表,远少于现有的方法所需要的向量数|V|。

$x^r_i$: 第 i 行
$x^c_j$: 第 j 列

引入 RNN

知道了怎么用两个向量来表示一个词语,下一步就是如何将这种表示方法引入到 RNN 中。论文的做法非常简单,将一个词的行向量和列向量按顺序分别送入 RNN 中,以语言模型(Language Model, LM)为例,要计算下一个词是 $w_t$ 的概率,先根据前文计算下一个词的行向量是 $w_t$ 的概率,在根据前文和 $w_t$ 的行向量来计算下一个词的列向量是 $w_t$ 的概率,行向量和列向量的概率乘积就是下一个词是 $w_t$ 的概率。




  1. 对冷启动(cold start)来说,随机初始化分配单词
  2. 对给定的 allocation 训练 embedding vectors 直到收敛(convergence)
    停止条件(stopping criterion)可以是训练时间或者是 perplexity(for LM model)
  3. 固定上一步中学习到的 embedding vectors,重新分配单词(refine allocation),标准当然是最小化损失函数了


给定 T 个单词,损失函数 NNL(negative log-likelihood) 为:
$$NNL = \sum^T_{t=1}-logP(w_t)=\sum^T_{t=1}-logP_r{w_t}-logP_c(w_t)$$

扩展一下,$NNL=\sum^{|V|}_{w=1}NLL_w$,而单词 w 的损失函数 $NNL_w$ 为:
NNL_w & = \sum_{t \in S_w} -logP(w_t) = l(w,r(w),c(w))\\
& = \sum_{t \in S_w} -logP_r(w_t)+ \sum_{t \in S_w} -logP_c(w_t) = l_r(w,r(w)) + l_c(w,c(w)) \\

  • $S_w$: 单词 w 的所有可能出现的位置的集合
  • $(r(w),c(w))$: 单词 w 在 allocation table 的位置
  • $l_r(w,r(w))$: 单词 w 的行损失(row loss)
  • $l_c(w,c(w))$: 单词 w 的列损失(column loss)

假定 $l(w,i,j)=l(w,i)+l(w,j)$ 的情况下,计算 $l(w,i,j)$ 的复杂度是 $O(|V|^2)$,而事实上,所有的 $l_r(w,i)$ 和 $l_c(w,j)$ 都在 LightRNN 训练的前向传播中计算过了。对所有的 $w,i,j$ 计算 $l(w,i,j)$ 后,我们可以把 reallocation 的问题看做下面的优化问题:


这个优化问题又可以等价为一个标准的 最小权完美匹配(minimum weight perfect matching problem),可以用 minimum cost maximum flow(MCMF) 算法来实现,复杂度为 $O(|V|^3)$,主要思路大概如下图,论文的实验中用的是一个最小权完美匹配的近似算法 1/2-approximation algorithm,复杂度为 $O(|V|^2)$,这和整个 LightRNN 的训练复杂度(约为 $O(|V|KT)$,K 是训练过程的 epoch 数,T 是训练集中的 token 总数)比起来不算什么。


5.jpg 6.jpg

